ПРО //
ЧТЕНИЕ
Результаты испытаний каждого цикла
На этой странице публикуются итоги испытаний завершенных циклов конкурса и результаты прошедших номинаций.
О методике оценки – ниже в инфографике с картинками.
Если у вас останутся вопросы по тому, как оценивается работа искусственного интеллекта, то напишите нам на challenges@upgreat.one.
Победители конкурса
Антиплагиат
Арусский язык
победитель
Победители и призеры номинаций
Наносемантика
Нейросети Ашманова
Номинация
Структура
1 место
Антиплагиат
АО «Антиплагиат»
Номинация
Структура
2 место
РХТУ AI
РХТУ
Номинация
Структура
3 место
Антиплагиат
АО «Антиплагиат»
Номинация
Логика
1 место
РХТУ AI
РХТУ
Номинация
Логика
2 место
FirstTry
Номинация
Логика
3 место
РЕЗУЛЬТАТЫ ИСПЫТАНИЙ
Цикл 1
Цикл 2
Цикл 3
Лидерборд показывает рейтинг команд, принявших участие в испытаниях конкурса ПРО//ЧТЕНИЕ, включая текущие номинации цикла, и уровень точности, достигнутый их ИИ-решениями.
Место
Команда
Регион, город
Среднее время обработки файла, с.
Доля успешно обработанных файлов, %
ОТАР, %
Относительная точность алгоритмической разметки (ОТАР) определяется по заданной выборке эссе как отношение ОТАР = CTAP / СТЭР * 100%
1
Антиплагиат
Москва
3.09
100
100.138
2
Наносемантика
Москва
6.13
100
92.933
3
Крылья
Москва
9.30
100
84.651
4
PG7
Москва
2.17
99.4
83.593
5
Organoid AGI
Москва
12.69
100
58.173
Как оценивается работа искусственного интеллекта?
На основании большого количества критериев работа искусственного интеллекта (ИИ) сопоставляется с работой двух независимых экспертов,?
в результате чего определяется точность решений участников. Ниже представлен упрощенный алгоритм оценки работы ИИ. Подробнее об этапах оценки, критериях и формулах можно прочитать в Техническом регламенте.
Этап 1
Отбор эссе для испытаний
Для оценки работы систем участников (ИИ-ассистентов) собраны эссе?на различные тематики, которые нигде ранее не публиковались.
1 000
эссе
Этап 2
Проверка текстов экспертами и ИИ
Для обеспечения объективности оценки тексты проверяют сразу два эксперта ЕГЭ. Система участников и эксперты в условиях ограниченного времени оценивают тексты по 4 аспектам:
Логика
Повествование
не нарушено, выводы следуют из аргументов
и т. д.
Факты
Верно описаны реальные факты и исторические события (даты, имена, описание событий и др.)
Грамматика
Нет ошибок в написании слов и предложений
Стилистика
Уместное употребление слов различной окраски или стилистики, метафор, сравнений
Эксперты и система создают специальную разметку текста, указывая на ошибки и выделяя значимые для оценки блоки. При необходимости можно получить пояснение о причинах маркировки ошибки.
Этап 3
Определение точности работы ИИ
Разметки экспертов и ИИ попарно сравниваются друг с другом
на основании ряда критериев, у каждого из которых есть свой установленный вес (важность) при оценке точности работы.
Пример разметки текста в результате проверки эссе по истории
Искусственный интеллект
30 сек. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Оценка
Следствие Роль
И.Факт Сяп
Следствие Роль
И.Факт Сяп
Эксперт 1
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
И.Причин
Сяп
Сяп
Эксперт 2
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Причина
Верно ли система участников оценила текстовый блок?
В среднем ИИ оценил эссе
немного хуже экспертов ЕГЭ
Разберем подробнее:
В первом предложении эксперты дали противоположные оценки, а ИИ совпал с одним из экспертов. В этом предложении ИИ провел работу
на уровне экспертов.
Второе предложение эксперты не посчитали значимым для оценки эссе, тогда как ИИ выделил его. ИИ ошибся, отметив блок, не имеющий ценности для выставления оценки.
В оценке третьего предложения ИИ сошелся с одним из экспертов, но неверно отметил фактическую ошибку. В среднем ИИ провел оценку текстового блока чуть хуже экспертов.
На практике точность ИИ оценивается
по специальным формулам
Они учитывают оценки системы и экспертов по каждому отдельному предложению, текстовому блоку и тексту в целом
Система участника считается достаточно точной, если полученная разметка отличается от экспертных меньше, чем экспертные друг от друга (коэффициент ОТАР больше или равен 100%). Чем выше коэффициент, тем точнее работа ИИ.
В КОНКУРСЕ ПОБЕЖДАЕТ КОМАНДА С САМЫМ ВЫСОКИМ КОЭФФИЦИЕНТОМ ОТАР,
РАВНЫМ ИЛИ ПРЕВЫШАЮЩИМ 100%
Итоги награждения
Дополнительная информация
Конкурс ПРО//ЧТЕНИЕ проходит в формате повторяющихся циклов испытаний до тех пор, пока не будет решена задача конкурса, но не позднее 30 декабря 2022 года.
Если в текущем цикле одна из команд разработала ИИ-систему для анализа текстов на русском языке, решающую задачу конкурса, то в следующем цикле конкурс пройдет только для текстов на английском языке. И, наоборот.
Следующий цикл испытаний пройдет весной 2021 года. Регистрация открыта.